Psychologie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

 
Sequentielle Entscheidung: Sequentielle Entscheidungsfindung in der KI ist der Prozess des Treffens von Entscheidungen im Laufe der Zeit, wobei die Konsequenzen jeder Entscheidung berücksichtigt werden. Dazu muss der KI-Agent in der Lage sein, die Welt und ihre Dynamik zu modellieren und über die möglichen Ergebnisse seiner Handlungen nachzudenken. Siehe auch Entscheidungsprozesse, Entscheidungsbaum, Entscheidungsnetzwerke, Entscheidungen, Entscheidungstheorie, Software-Agenten, Künstliche Intelligenz.

_____________
Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente.

 
Autor Begriff Zusammenfassung/Zitate Quellen

KI-Forschung über Sequentielle Entscheidungen - Lexikon der Argumente

Norvig I 645
Sequentielle Entscheidungen/KI-Forschung/Norvig/Russell: [Hier geht es um] die rechnerischen Fragen, die bei der Entscheidungsfindung in einer stochastischen Umgebung auftreten. Sequentielle Entscheidungsprobleme beziehen Hilfsmittel, Unsicherheit und Sensorik ein und schließen Such- und Planungsprobleme als Sonderfälle ein. >Planung/KI-Forschung
, >Entscheidungsnetzwerke/KI-Forschung, >Entscheidungstheorie/Norvig, >Nutzen/Norvig, >Nutzentheorie/Norvig, >Umgebung/KI-Forschung, >Multiattribute Nutzentheorie/KI-Forschung.
Norvig I 649
Optimal Policy: Die optimal policy für einen endlichen Horizont ist nichtstationär. Ohne eine festgesetztes Zeitlimit gibt es hingegen keinen Grund, sich im gleichen Zustand zu verschiedenen Zeiten unterschiedlich zu verhalten. Daher hängt die optimale Handlung nur vom aktuellen Zustand ab, und die optimal policy ist stationär.
Zustände: In der Terminologie der Multiattributiven Nutzentheorie kann jeder Zustand si als ein Attribut der Zustandsfolge [s0, s1, s2 ...] betrachtet werden. >Werte/KI-Forschung.
Norvig I 684
Sequentielle Entscheidungsprobleme in unsicheren Umgebungen, auch Markov-Entscheidungsprozesse oder MEPs genannt, werden durch ein Übergangsmodell definiert, das die probabilistischen Ergebnisse von Handlungen und eine Belohnungsfunktion angibt, die die Belohnung in jedem Zustand spezifiziert.
Norvig I 685
Richard Bellman entwickelte die Ideen, die der modernen Herangehensweise an sequentielle Entscheidungsprobleme zugrunde liegen, während er ab 1949 bei der RAND Corporation arbeitete. (...) Bellmans Buch "Dynamic Programming" (1957)(1) gab dem neuen Gebiet eine solide Grundlage und führte die grundlegenden algorithmischen Ansätze ein. Ron Howards Doktorarbeit (1960)(2) führte die Policy Iteration und die Idee einer durchschnittlichen Belohnung für die Lösung von Problemen mit unendlichen Horizonten ein. Mehrere zusätzliche Ergebnisse wurden von Bellman und Dreyfus (1962)(3) vorgestellt. Die modifizierte Policy Iteration geht auf van Nunen (1976)(4) und Puterman und Shin (1978)(5) zurück. Die asynchrone Policy Iteration wurde von Williams und Baird (1993)(6) analysiert (...).
Die Analyse der Diskontierung im Hinblick auf stationäre Präferenzen geht auf Koopmans (1972)(7) zurück. Die Texte von Bertsekas (1987)(8), Puterman (1994)(9) und Bertsekas und Tsitsiklis (1996)(10) bieten eine rigorose Einführung in sequentielle Entscheidungsprobleme. Papadimitriou und Tsitsiklis (1987)(11) beschreiben Ergebnisse zur Rechenkomplexität von MEPs. Bahnbrechende Arbeiten von Sutton (1988)(12) und Watkins (1989)(13) über Methoden des Verstärkungslernens zur Lösung von MEPs spielten eine wichtige Rolle bei der Einführung von MEPs in die KI-Community, ebenso wie die spätere Untersuchung von Barto et al. (1995)(14). >Markov-Entscheidungsprozesse/Norvig.


1. Bellman, R. E. (1957). Dynamic Programming. Princeton University Press
2. Howard, R. A. (1960). Dynamic Programming and Markov Processes. MIT Press.
3. Bellman, R. E. and Dreyfus, S. E. (1962). Applied Dynamic Programming. Princeton University Press.
4. van Nunen, J. A. E. E. (1976). A set of successive approximation methods for discounted Markovian decision problems. Zeitschrift fur Operations Research, Serie A, 20(5), 203–208.
5. Puterman, M. L. and Shin, M. C. (1978). Modified policy iteration algorithms for discounted Markov decision problems. Management Science, 24(11), 1127-1137.
6. Williams, R. J. and Baird, L. C. I. (1993). Tight performance bounds on greedy policies based on imperfect value functions. Tech. rep. NU-CCS-93-14, College of Computer Science, Northeastern University.
7. Koopmans, T. C. (1972). Representation of preference orderings over time. In McGuire, C. B. and Radner, R. (Eds.), Decision and Organization. Elsevier/North-Holland.
8. Bertsekas, D. (1987). Dynamic Programming: Deterministic and Stochastic Models. Prentice-Hall.
9. Puterman, M. L. (1994). Markov Decision Processes: Discrete Stochastic Dynamic Programming. Wiley
10. Bertsekas, D. and Tsitsiklis, J. N. (1996). Neurodynamic programming. Athena Scientific.
11. Papadimitriou, C. H. and Tsitsiklis, J. N. (1987). The complexity of Markov decision processes.
Mathematics of Operations Research, 12(3), 441-450.
12. Sutton, R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning,
3, 9-44.
13. Watkins, C. J. (1989). Models of Delayed Reinforcement Learning. Ph.D. thesis, Psychology Department, Cambridge University.
14. Barto, A. G., Bradtke, S. J., and Singh, S. P. (1995). Learning to act using real-time dynamic programming. AIJ, 73(1), 81-138.

_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente.
KI-Forschung

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link
> Gegenargumente gegen KI-Forschung
> Gegenargumente zu Sequentielle Entscheidungen

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z